本文在战略性个人存在的情况下研究算法决策,其中ML模型用于制定有关人类代理的决策,而后者可以战略性地调整其行为以改善其未来数据。现有的战略学习结果主要集中在线性设置上,其中具有线性标记功能的代理最能响应(嘈杂的)线性决策政策。相反,这项工作着重于一般的非线性设置,在该设置中,代理只用政策的“本地信息”响应决策政策。此外,我们同时考虑了最大化决策者福利(模型预测准确性),社会福利(由战略行为引起的代理改善)和代理福利(ML低估了代理人)的目标。我们首先将代理最佳响应模型概括为非线性设置,然后揭示福利目标的兼容性。我们表明,这三项福利只能在限制性条件下同时达到最佳,这在非线性环境中挑战。理论上的结果表明,现有的作品仅最大化当事方子集的福利不可避免地会减少其他人的福利。因此,我们要求在非线性环境中平衡各方的福利,并提出一种适用于一般战略学习的不可还原优化算法。关于合成和实际数据的实验验证了所提出的算法。
主要关键词
![arxiv:2405.01810v1 [CS.AI] 2024年5月3日PDF文件第1页](/bimg/f/faa6dbdfde211fe94a2ba659b6e7926cb764071b.webp)
![arxiv:2405.01810v1 [CS.AI] 2024年5月3日PDF文件第2页](/bimg/f/fd3be86719ca9f2c1e5303db429f6d875f94a8b9.webp)
![arxiv:2405.01810v1 [CS.AI] 2024年5月3日PDF文件第3页](/bimg/6/6faec84a045a6dd1afc2c6aef7bcb6beda71f253.webp)
![arxiv:2405.01810v1 [CS.AI] 2024年5月3日PDF文件第4页](/bimg/1/16a7f073e019d514d4cc950f253fcd4097a6c522.webp)
![arxiv:2405.01810v1 [CS.AI] 2024年5月3日PDF文件第5页](/bimg/1/1a933fe5e3428c1b6cb0607b04e400c0b4d072ef.webp)
